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摘 ， 要: 针对 模糊 C- 均 值 聚 类 算法 对 噪声 敏感 、 容 易 收 你 到 局 部 极 小 值 的 问题 , 提出 一 种 基于 交叉 灶 的 模糊 聚 类 算法 。 
该 算法 通过 引入 交叉 粒 重 新 定义 了 传统 FCM 算法 的 目标 济 数 ， 利 用 交 又 炉 度量 样本 隶属 度 之 间 的 差异 性 ， 并 采用 拉 
格 朗 日 求解 方法 和 妆 伯 W 函数 解决 了 目标 函数 的 优化 问题 ， 此 外 ,分析 了 样本 划分 天 阵 的 分 布 情况 ,依据 分 布 特性 对 
噪声 样本 进行 识别 。 人 工 数据 集合 和 标准 数据 集 加 噪 的 实验 结果 表明 ,该 算法 提高 了 传统 FCM 算法 的 抗 干扰 能 力 , 具 
有 更 强 的 彰 棒 性 ， 噪 上 声 样本 识别 的 准确 率 较 高 。 
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Robust fuzzy clustering algorithm based on cross entropy 
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Abstract: For the problem that the traditional fuzzy C-means clustering algorithm is easy to be affected by noise data, this paper 
proposed a fuzzy clustering algorithm based on the cross entropy. It introduced the cross entropy to the objective function of 
FCM algorithm to measure the difference between membership function of data, and use Lagrange method and Lambert W 
function to solve the optimization problem of the objective function. The algorithm could identify the noise samples according 
to the characteristics of the sample partition matrix. The experiment results of a synthetic data set and a standard data set with 
noisy show that the algorithm is more robust and has better clustering results. 
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H 1969 年 Ruspini H AKRE A RKN, EF 方法 使 得 样本 点 隶属 度 求解 公式 具有 了 高 斯 分 布 特性 ， 从 而 表 
模糊 理论 的 聚 类 分 析 方 法 就 受到 了 研究 人 员 的 广泛 关注 ， 提 出 现 出 更 强 的 抗 噪 性 。 文 献 [13] 采 用 炉 函 数 作 为 目标 函数 的 一 个 
了 多 种 模糊 聚 类 分 析 方 法 。 其 中 , 模糊 C- 均 值 聚 类 算法 (fuzzy ”组 成 部 分 , Wig Sd SS SL MEC, 但 该 方法 对 例外 点 较 
C-means, FCM) 外 因 其 具有 设计 简单 、 解 决 问题 范围 广 且 易于 敏感, 例外 点 的 干扰 常 使 得 到 的 聚 类 中 心 严重 偏离 。 文献 [14] 提 
实现 的 特点 ， 己 成 为 模糊 聚 类 算法 中 一 种 经 典 方法 在 诸多 领域 出 了 和 鲁 棒 的 极 大 炉 聚 类 算法 (Robust maximum entropy 
得 到 了 广泛 应 用 。 但 理论 研究 与 实验 表明 ,FCM 算法 存在 一 些 。 “clustering,RMEC), 提高 了 算法 对 例外 点 的 抗 干扰 能 力 ,。 在 引入 
固有 缺陷 ,如 对 噪声 数据 极其 敏感 , 容易 收敛 到 局 部 极 小 点 等 。 模糊 炉 的 基础 上 ， 文 献 [15] 通 过 结合 犹 瑰 度 重新 定义 目标 函数 
为 此 ， 研 究 人 员 通 过 修改 聚 类 算法 的 目标 函数 和 弱化 隶属 度 的 。 提出 了 直觉 模糊 C- 均 值 聚 类 算法 , 该 算法 对 噪声 数据 抑制 具有 
约束 条 件 提出 了 很 多 算法 。 代 表 性 算法 主要 有 可 能 性 聚 类 算法 ERAR, 但 效果 不 明显 , 算法 复杂 性 很 高 。 文献 [16] 采 用 相 
[3] (possiblistic C-means, PCM) 及 改进 的 IPCM 算法 四、 可 能 Xp SEPTA DE BY REOS ESI C- 均 值 聚 类 算法 (Relative 
性 FCM 算法 (possiblistic fuzzy C-means,PFCM) 59、 引 入 样本 entropy fuzzy c-means clustering,REFCM)。 文 献 [17] 提 出 了 基于 
加 权 策 略 的 WFCM 算法 (weighted fuzzy C-means ,WFCM) 中 J XB ECHIEIRZS TEX, EAIA BLESS HEA Hopfield 神 
及 相关 算法 &29、 基 于 噪声 模型 的 聚 类 算法 09 及 增强 模糊 划分 的 ”经 网 络 求解 ,文献 [18] 提出 了 基于 广义 粮 的 可 能 性 模糊 C- 均 值 
聚 类 算法 吕 29。 这 些 算法 在 一 定 程度 上 改进 了 FCM 所 面临 的 聚 类 算法 ， 能 够 更 加 正确 地 获得 含 噪声 数据 的 聚 类 中 心 。 
问题 ， 使 其 在 实际 应 用 中 有 更 强 的 适用 能 力 。 25 LE SS EUROS RIS RS, IIS BEC RIUSESCPAI A BOLA fn E] 
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差异 性 以 及 不 满足 对 称 性 等 缺陷 , 本 文 将 交叉 炉 引入 传统 FCM 
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数 ， 本 质 上 度量 各 个 样本 隶属 度 之 间 的 差异 程度 。 


算法 的 目标 函数 ， 提 出 一 种 交叉 灶 模 糊 聚 类 算法 (cross entropy ”通过 将 两 项 进行 融合 得 到 的 CEFCM 算法 ， 其 实质 上 是 使 得 
fuzzy C-means clustering,CEFCM), ， 采 用 交叉 烧 有 效 度量 各 类 样 。” 标 函数 优化 时 所 获得 的 划分 矩阵 中 各 个 样本 的 隶属 度 不 仅 受 距 
本 隶属 度 之 间 的 差异 性 ， 使 目标 函数 通过 优化 所 获得 的 划分 矩 ” ”高 影 响 而 且 还 受制 于 交叉 焙 ， 连 代 过 程 中 不 容易 陷入 局 部 最 小 
阵 中 每 个 样本 隶属 度 不 仅 受 距 离 影响 ， 而 且 还 受制 于 交叉 灶 。 值 。 从 目标 函数 的 构成 显然 可 以 看 出 ， 第 一 项 取 值 最 小 、 第 二 
项 取 值 最 大 时 ， 目 标 函 数 可 达到 最 小 值 。 这 表明 所 有 样本 与 其 
1 BUB zi iz 
RRENA 聚 类 中 心 之 间 的 距离 最 小 ， 类 内 数据 比较 集中 ， 而 且 各 类 样本 


基于 Kullback09] 在 信息 论 中 对 交叉 烂 的 定义 ， 对 于 论 域 


X — x35, 7s] 的 两 个 模糊 集 4 和 ,人 相对 于 BB 的 模糊 交叉 
炉 的 对 称 形式 定义 为 
D(A B) =X, (x) Gs 
> (x, Jin 一 一 一 Hs (x) 
us) 
其 中 : pu(%) 和 pts(x;) 分 别 表示 XX 中 元 素 分 别 属于 
ATEB RER. 


ZURE Fito, "ABRE -STRE 


尽管 交叉 粒 不 是 真正 意义 上 的 几何 距离 ， 但 是 用 来 度量 模糊 集 
之 间 的 差异 性 十 分 有 效 。 
2 CEFCM 聚 类 算法 
21 算法 的 基本 思想 

聚 类 就 是 按照 数据 对 象 的 差异 性 将 一 个 数据 集 进 行 区 分 和 
分 类 的 过 程 ， 差 异性 越 大越 有 利于 削弱 无 关 信息 、 保 留 相 关 信 
息 ， 从 而 形成 良好 的 聚 类 结果 。 据 此 ， 本 文 将 度量 模糊 集 之 间 


25 FUE RERI SUR 5| X. FCM 的 目标 函数 , 提出 了 CEFCM 算 


法 ， 构 造 的 目标 函数 为 
minJ (U,V,c) = 
Xue YYY. (e = 
ij j=l i=l kel 4 
s.t. 六 EE ERE Vi; 6) 


4; € [0.1], Vi, j. 


其 中 : d$ 是 第 j 个 样本 到 第 i 个 聚 类 中 心 的 欧式 距离 ,pi 


是 第 j 个 样本 对 第 ij 个 聚 类 中 心 的 隶属 


属 度 ，Cc 是 聚 类 中 心 数目 ，N 


是 样本 个 数 ， 忍 是 交叉 焙 的 调整 系数 ， 决 定 了 交叉 简 的 影响 程 


HR 


NS 


目标 函数 包括 两 项 , 第 一 项 为 原 FCM 


标 函 数 , 第 二 项 


隶属 度 之 间 


的 差异 最 大 ， 类 间 划 分 清晰 明了 ， 形 成 了 最 优 的 划 


理论 上 最 终 所 获得 的 划分 矩阵 中 ， 数 据 样本 和 噪声 


样本 的 隶属 
某 一 类 的 隶 
对 各 类 的 隶 
属 度 分 布 特 
的 样本 作为 


度 分 布 互 不 相同 : 数据 样本 的 各 类 隶属 度 值 中 必然 
属 度 值 较 大 、 其 余 类 的 隶属 度 值 较 小 ， 而 噪声 样本 
属 度 值 均 较 小 。 为 此 ， 依 据 数据 样本 和 噪声 样本 隶 
点 的 差异 性 ， 则 可 从 样本 集中 筛选 隶属 度 值 均 较 低 
本 ， 完 成 噪声 样本 的 识别 。 


噪声 样 


2.2 算法 描述 


对 于 上 节 给 出 的 目标 函数 ， 本 节 将 给 出 具体 推导 和 算法 步 
又 。 
TU br BR H e A -12,- N) > 构造 目标 优化 函数 为 
iiec Esp) 
il jel i=l k=l Hy 
kei (4) 
Hyj 
nme] Sn (3a) 
其 中 样本 对 其 聚 类 中 心 的 隶属 BENE pl; 是 相互 独立 的 。 设 
Hr 
L- ud; Til «(4 Jes «(A J 
1 Hy ij 
-1 (py -1) 
` c (5) 
74d;-0 Hy (u,) - n; In( py)+ 
>m In (4y) -In(u)) 1 -4 (x; -1) 
显然 , 目标 函数 关于 的 极 小 值 求解 问题 可 分 解 为 了 关 
于 各 个 隶 F PK He pts 的 极 小 值 求解 问 题 ， 即 目标 函数 最 小 化 的 
第 一 个 必要 条 件 0 等 价 于 -2 -0 
QU Ou; 
xu, sf DL -0， 可 得 
Ou 
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c Yu 
d; -0 Ing, *1- 5 In(u,)- D |[-4,20 (6) 


ij 


kei 


式 (6) 无 法 进行 直接 求解 ， 考 虑 取 值 范围 


的 一 致 性 ， 本 文采 


— 


lexp(—,;) &iexp(—y,;) 蔡 代 ij 和 Hkj, 则 式 (6) 改 写 为 


d; +0y; -0-0 y, + 
k=1 


. kzi (7) 
Gexp(yy)D exp(75,) - 4, -0 


kei 


4di-09—03 y-Aj-K , NR (7) 改写 为 


kei 


K «Oy, + €exp(y,) X exp(-»,) 0 (8) 
k=1 


kei 


对 式 (8) 求解 ”可 得 


kei 


Yy -- w eon (9) 


从 而 


K K \e 
H; =exp| F+W ev(- ]S = 
0 0 /他 
kei 
m 


W, [ev(-£) n »- 52 


其 中 W(.) 是 朗 伯 Ww RAL, WE W(Z)exp(W(Z))-Z. 


(10) 


OL 


对 于 聚 类 中 心 ,一般 方 法 是 通过 求解 =0 得 到 人 迭代 更 
Vj 
新 表达 式 。 考 虑 本 文中 q; 表示 欧 拉 距离 , 则 v, 采 用 如 下 的 更 新 
表达 式 : 
v% = 2 i*j (11) 
254 ij 
23 参数 1, 的 选取 
利用 约束 条 件 yw =b vje TE 
Zn(A) 
=1 a2) 


观察 式 〈12) TRIM, 4, FRERAO EKA, TIAE 


inaX ive /EBRTI 
a z, YB, 
AUR 2, LAN 7 =0 也 无 法 求解。 为 此 ， 本 文 利用 的 


条 件 来 确定 1 的 取 值 范围 
D m20, Vi, j 


该 条 件 要 求 式 (10) 是 非 负 的 ， 在 该 式 中 > >0 ， 


kei 


[ege] menm. ns 
2 


所 以 


BW 


W,(0)-20 > 74 Z>, W,(9»0 。 本 文中 
K c 

Z-ep|-3]22/20 , Thu 20. m WBEM A ER. 
kei 


2) po <l Vi,j 


该 条 件 要 求 各 个 样本 对 于 聚 类 中 心 的 隶属 度 必须 小 于 1, 

即 
EL eof n (3) 
k=1 id E 0 k=1 * 
从 而 得 到 
å; 2d; -0+ Dy? Y mn(au,) (14) 

于 是 ， 根 据 式 (14) WI AE ARARE PA 的 取 值 。 
2.4 算法 步骤 

基于 上 述 讨论 ， 本 文 CEFCM 算法 的 计算 步骤 如 下 ; 

a) 确 定 聚 类 数目 c(2<c<N) TIGE SOR IRL > DURATA 
BÉ E. 

OERE RAEL 和 初始 的 紊 类 中 心 v(0)， 七 一 1. 

9 计算 样本 和 各 个 聚 类 中 心 之 间 的 距离 dz. 

d) 按 式 〈14) 确定 拉 格 朗 日 乘 子 4,。 

DRR AO 更 新 隶属 度 pn 。 

DRR (11) EPR pb, 

gus |E -vA |<s, war mm 
t=t+1 ， 并 转 步 又 c)。 
2.5 算法 时 间 复 杂 度 分 析 

经 典 FCM 算法 的 时 间 复 杂 度 为 O(Nezm ， 其 中 N 代表 数 
据 集 的 大 小 , c 为 类 别 数 , p 为 数据 集 的 维度 .对 于 本 文 CEFCM 


FA, HFE Hos SIDA T SEXO 


其 时 间 复 杂 度 为 
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O(2Nclog(No) > 故 整体 时 间 复 杂 度 为 O(N? p*2Nclog(Nc)) » E 


ju 


然 本 文 CEFCM 算法 增 大 了 时 间 开 销 ， 


为 了 
数据 集 进行 实 


法 的 性 能 , 第 


3.: 
实验 中 ， 


3 ”实验 结果 与 分 析 


验证 本 文 CEFCM 算法 的 性 能 ， 本 节 使 | 
人 工 数 据 集 测试 CEFCM 算 


验 。 第 1 组 实验 使 用 


但 其 聚 类 效果 显著 提高 。 


两 组 不 同 的 


2 组 实验 使 用 IRIS 标准 数据 集 对 CEFCM 算法 进 
行 分 析 与 评估 。 


人 工 数 据 集 实验 


本 文采 | 


中 样本 数据 含有 噪声 的 ! 


j 聚 类 有 效 性 指数 对 比 算法 性 能 。 
献 [21] 指 出 基于 隶属 度 和 矩阵 的 有 效 性 指数 更 加 适用 了 


鉴于 文 
于 实际 应 用 


和 离散 度 。 紧 致 度 定义 如 下 : 


所 有 样本 属于 


C ,是 第 ; 类 和 第 j 类 样本 间 的 紧 致 度 。 当 


青 况 ， 本 文 基 于 隶属 度 窍 阵 计 算 紧 致 度 


， (13) 


某 个 类 的 隶属 度 较 高 时 ， 紧 致 度 越 大 ， 聚 类 结果 


越 紧 致 。 总 体 离散 度 定 义 如 下 : 


S= max S. 


i=l, j=li+ j 


(16) 


y 


其 中 S, 2 minu) k 21,2,,n, A; 类 和 第 ) 类 2 
间 的 离散 度 。 两 个 类 别 之 间 划 分 较 清 晰 时 ， 样 本 属于 某 个 类 的 


总 体 离散 度 衡 
度 越 小 ， 表 明 
本 节 使 用 


fin 
Xi 
zl 


类 之 间 的 差别 越 大 。 


的 人 工 数 据 集 参 照 文 献 [16] 方 法 生成 ， 


隶属 度 必定 大 于 其 他 值 ， 因 此 ，s; 越 小 聚 类 结果 越 清 晰 。 利 用 
明确 的 两 个 类 之 间 的 离散 度 ， 当 总 体 离散 


2 维 欧 


几 里 德 空间 中 服从 高 斯 分 布 的 4 类 数据 组 成 ,每 1 类 均 包含 100 


个 数据 。 第 1 


中 心 为 C1-2), 协 方差 矩 


il 


噪声 样本 ， 中 ， 


3 
0 1 


类 中 心 为 (12), 协 方差 矩 


1(a) 所 示 。 第 


JE 如 医 


心 为 (-3,5), 协 方差 矩阵 


算法 对 图 
种 算法 所 得 的 


RRP 


Zh 0 ,如 图 


图 2 给 出 了 FCM 4X0) REFCM 算法 00 和 本 文 CEFCM 
1(b) 数 据 集 进 行 聚 类 所 得 的 划分 矩阵 结果 。 可 见 ， 三 
划分 矩阵 都 存在 数据 样本 的 某 一 类 隶属 度 值 较 高 、 


2 0.2 
02 2 


ul 


|: 第 2 类 


uh |: 第 3 类 中 心 为 (35) 协 方 


4 类 为 置 于 数据 集 尾 部 的 


1(b) 所 示 。 


大 部 分 接近 1， 而 噪声 样本 的 隶属 度 值 均 更 低 ， 表 明 本 文 
CEFCM 算法 的 数据 划分 更 加 合理 ， 噪 声 对 聚 类 过 程 的 影响 明 
显 减 小 。 同时， 图 2《“c) 中 数据 和 噪声 的 隶属 度 各 自分 布 的 特 
点 越 明 显 ， 那 么 它们 的 差异 性 越 突出 ， 越 有 利于 筛选 隶属 度 值 
均 更 低 的 样本 作为 噪声 ， 则 噪声 的 识别 率 更 高 。 


- 类 1 
8 类 2 
类 3 
6 ; 
4l- 
2 i 
0 
P 
V 
-6L 
ES 6 4 2 0 2 4 6 
zs bl " 
(9) 原 始 数据 集 
10; 
类 1 
类 2 
£ + 类 3 
E SF 。 噪声 4 
i 
4l- d 
2- 
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CD) 含 噪 数据 
到 1 人工 数据 集 样本 数据 
表 1 给 出 FCM 算法 、REFCM 算法 和 本 文 CEFCM 算法 的 


性 能 比较 。 可 见 ， 本 文 算法 的 紧 致 度 更 高 ， 离 散 度 较 小 ， 表 明 
本 文 CEFCM 算法 在 样本 含 噪 的 情况 所 获得 聚 类 结果 更 好 ， 样 


本 划分 更 清晰 ， 明 显 具 有 抗 噪 强 、 重 棒 性 好 的 特点 。 
del 3 种 聚 类 算法 的 性 能 比较 
指标 FCM REFCM CEFCM 
C 210.3311 88.0310 287.3124 
S 0.4465 0.7418 0.3175 


3.2 加 噪 IRIS 数据 集 的 测试 

本 节 采 用 著名 的 IRIS. 实际 数据 集 作为 测试 数据 。IRIS 数据 
集 由 四 维 空间 中 150 个 样本 点 组 成 ， 分 为 三 类 ， 每 类 有 50 个 样 
本 。 文 献 [22] 给 出 了 该 测试 数据 的 实际 类 中 心 位 置 分 别 为 : p1= 
(5.00 3.42 1.46 0.24), p2= (5.93 2.77 4.26 1.32), p3= (6.58 2.97 5.55 
2.02). 


表 2 可 知 ， 在 噪声 干扰 下 ，FCM、PFCM 和 WFCM 算法 
的 错 分 数 和 中 心 偏差 较 大 , 表明 算法 对 噪声 敏感 , 鲁 棒 性 较 差 ， 
IPCM 和 文献 [8] 方 法 能 够 同时 具有 较 好 的 错 分 数 和 聚 类 中 心 ， 


类 隶属 度 值 较 低 ， 以 及 后 噪声 样本 隶属 度 较 低 的 情况 ， 


符合 理论 上 数据 样本 和 噪声 样本 的 隶 


进一步 可 以 看 出 ， 


分 布 的 特点 更 加 明显 ， 数 据 样本 对 各 


自 中 心 的 隶属 度 值 更 高 ， 


辕 度 分 布 各 有 特点 的 结论 。 
图 2(c) 中 数据 样本 和 噪声 样本 隶属 度 各 自 


表明 这 两 种 算法 和 鲁 棒 性 较 强 , 本 文 方法 的 错 分 数 最 小 , 正确 率 最 

高 ， 中 心 偏差 略 低 于 文献 [8] 方 法 ， 表 明 本 文 方法 具有 较 少 的 错 

分 数 和 较 正 确 的 聚 类 中 心 ， 聚 类 准确 度 高 。 

表 2 各 种 算法 在 加 噪 IRIS 数据 集 上 的 运行 结果 
FCM PFCM IPCM WFCM 文献 [8] 方 法 


算法 本 文 方法 
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| GhinaXiy 合 人 RAFI 
录用 稿 姚 兰 ， 等 : 请 棒 的 交叉 粒 模 糊 聚 类 算法 
错 分 数 50 36 12 50 15 9 
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糊 交 叉 糯 的 模糊 聚 类 算法 。 
强 ， 具 有 较 少 的 错 分 数 和 较 正 确 的 聚 类 中 心 ， 
FCM、PFCM 等 现 有 算法 
行 噪声 识别 。 本 文 算法 还 需要 进 
样本 特征 提取 等 将 是 下 一 步 的 研究 内 容 。 


3] 


4] 


针对 FCM 算法 对 噪声 敏感 的 问题 ， 本 文 提出 一 种 基于 模 
实验 结果 表明 该 算法 对 噪声 鲁 棒 性 
聚 类 结果 优 于 
且 在 聚 类 的 同时 还 可 以 有 效 地 进 
步 研究 ， 如 参数 4 的 选取 、 
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